非自动回旋(NAR)模型的计算能力比自回归模型较少,但牺牲生成质量可以生成句子。先前的研究通过迭代解码解决了这个问题。这项研究建议将最近的邻居用作NAR解码器的初始状态,并迭代编辑。我们提出了一种新颖的培训策略,以了解有关邻居的编辑操作,以改善NAR文本生成。实验结果表明,所提出的方法(邻域)在JRC-ACQUISIE EN-DE DATASET上获得了更高的翻译质量(比香草变压器高1.69点(比香草变压器高1.69点),而解码迭代率较少(少于十分之一)使用最近的邻居翻译。我们还确认了所提出的方法对数据到文本任务(Wikibio)的有效性。此外,所提出的方法在WMT'14 EN-DE数据集上优于NAR基线。我们还报告了建议方法中使用的邻居示例的分析。
translated by 谷歌翻译
众所周知,SNS提供商可以进行上传视频/图像的重新压缩和调整,但是大多数用于检测篡改视频/图像的常规方法对此类操作不够强大。此外,视频是在时间上操作的,例如插入新框架和框架的排列,通过使用常规方法很难检测到其中的操作。因此,在本文中,我们提出了一种新颖的方法,该方法具有强大的散列算法,即使在对视频进行调整和压缩时,也可以检测到时间操作的视频。
translated by 谷歌翻译
近年来,分散的学习不仅是大规模机器学习的强大工具,而且还用于保留隐私。分散学习的主要挑战之一是,每个节点持有的数据分布在统计上是异质的。为了应对这一挑战,提出了称为边缘传感器学习(ECL)的原始二重算法,并在实验上证明对数据分布的异质性是可靠的。但是,仅当目标函数是凸的时,才提供ECL的收敛速率,并且在目标函数为非convex的标准机器学习设置中尚未显示。此外,尚未研究ECL对数据分布的异质性强大的直观原因。在这项工作中,我们首先研究了ECL和八卦算法之间的关系,并表明ECL的更新公式可以被视为纠正八卦算法中的局部随机梯度。然后,我们提出了包含ECL作为特殊情况的广义ECL(G-ECL),并在(强)凸和非凸面设置中提供G-ECL的收敛速率,这不取决于该设置数据分布的异质性。通过合成实验,我们证明了G-ECL和ECL的数值结果与G-ECL的收敛速率一致。
translated by 谷歌翻译
最近的工作[4]分析了两次可差化函数的最佳解决方案附近的亚当局部融合。结果发现,学习率必须足够小,以确保最佳解决方案的局部稳定性。以上的收敛结果也适用于Adamw。在这项工作中,我们提出了一种新的自适应优化方法,通过在两个方面扩展Adamw,以便放宽对局部稳定性的小型学习率的要求,我们称之为AIDA。首先,我们考虑跟踪梯度大小的第2矩R_T。当p = 2时,r_t减少到adamw的v_t。假设{m_t}是adamw的第一个时刻。众所周知,更新方向M_ {T + 1} /(v_ {t + 1} + epsilon)^ 0.5(或m_ {t + 1} /(v_ {t + 1} ^ 0.5 + epsilon)的Adamw(或者亚当)可以被分解为标志向量符号(M_ {t + 1})通过幅度的向量乘以量数| m_ {t + 1} | /(v_ {t + 1} + epsilon)^ 0.5(或| m_ {t + 1} | /(v_ {t + 1} ^ 0.5 + epsilon)。Aida旨在以| m_ {t + 1} | ^ q /(r_ {t + 1} + epsilon)^(q / p)(或| m_ {t + 1} | ^ q /((r_ {t + 1})^(q / p)+ epsilon),减少到当(p,q)=(2,1)时的adamw。假设原点0是两次可差化函数的本地最佳解决方案。理论上是在理论上发现的,当Q> 1和P> 1在Aida中,原点0只有当重量衰减是非零时局部稳定。进行实验,用于解决十个玩具优化问题和训练变压器和训练变压器和Swin变压器,为两个深度学习(DL)任务。实证研究表明,在许多场景中表明(包括两个DL任务),AIDA具有特定设置(P,Q)不等于(2,1)优于Adamw的设置(p,q)=(2,1)。
translated by 谷歌翻译